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摘要 : [目的 /意义 ] 提出 一 种 新 的 层次 化 科学 知识 结构 发 现 方法 ,为 优化 知识 结构 发 现 过 程 ,改善 知识 组 
织 形 式 提 供 借鉴 。[ 方法/ 过程] 利用 LDA 主题 模型 构建 层次 化 的 科学 知识 结构 发 现 方法 ,依据 主题 间 平 均 相 
似 性 自动 确定 知识 结构 层 数 ,通过 在 “文档 - 主题 "概率 和 矩 阵 中 自动 筛选 闪 值 截取 各 主题 文献 子 集 , 最 后 采用 树 
形 图 展示 科学 领域 的 知识 结构 ,发 气 知 识 间 的 关联 性 和 继承 性 ,并 与 层次 主题 模型 HLDA 方法 进行 比较 。[ 结 
果 / 结 论 ] 通过 实证 研究 与 对 比 ,证 明 本 文 提出 的 方法 得 到 的 知识 结构 更 优 ,知识 主题 表征 性 更 强 且 运行 效率 
更 高 ,并 在 单 层 主题 区 分 度 和 层 间 主题 继承 性 方面 较 HLDA 方法 有 较 大 提升 。 
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) 科 学 研究 的 泛 化 .交叉 和 渗透 使 各 领域 研究 呈现 
出 爱 错 复杂 的 局 面 ,研究 内 容 的 多 样 化 为 理解 与 掌握 
短 测 内 在 结构 带 来 一 定 困扰 ,浩瀚 的 知识 和 有 限 的 个 
人 精力 之 间 的 矛盾 不 可 避免 。 对 新 接触 某 领 域 的 学 者 
来 游 , 想 要 全 面 了 解 该 领域 知识 结构 往往 需要 很 多 工 
作 蕊 '"。 分 散 的 知识 点 、 非 结构 化 的 信息 不 利于 知识 
结 检 的 形成 ,也 阻碍 了 学 科 的 深度 交叉 与 融合 。 因 此 ， 
构 霆 一 个 科学 合理 的 知识 结构 对 科学 研究 具有 重要 意 
义 忆 而 目前 有 关 知 识 结构 的 研究 ,多 以 文献 计量 学 为 
基山 ,采用 多 元 统计 分 析 或 社会 网 络 分 析 的 方法 ,利用 
关键 词 共 现 等 对 知识 点 进行 简单 抽取 ,侧重 科学 热点 
的 发 现 ,无 法 完整 揭示 科学 研究 的 内 在 知识 结构 。 

针对 传统 研究 方法 的 不 足 , 本 文 提出 一 种 新 的 层 
次 化 科学 知识 结构 发 现 方法 ,该 方法 利用 LDA 主题 模 
型 生成 的 特征 词 对 知识 点 进行 潜在 映射 ,挖掘 其 更 深 
层 的 语义 信息 ,突破 了 传统 方法 仅 根据 共 现 词 刻画 主 
题 热 点 的 局 限 性 ,揭示 了 科学 领域 知识 点 间 的 多 粒 
度 层 次 关系 ,解决 了 知识 结构 发 现 中 常常 忽略 知识 
间 继承 性 的 问题 ,更 能 体现 知识 组 织 的 本 质 。 研 究 


者 可 以 通过 浏览 层次 化 的 知识 结构 人 全面、 快速 地 了 
解 领域 概况 和 知识 点 分 布 情 况 , 有 利于 减少 阅读 的 
工作 量 。 


早期 关于 知识 结构 的 研究 多 是 从 * 人 才 培 养 "的 
角度 出 发 ,讨论 教师 .图 书馆 员 或 各 领域 工作 人 员 应 该 
具备 怎样 的 知识 结构 ”。2000 年 后 ,有 关 知识 结构 的 
研究 开始 将 关注 点 转向 科学 文献 ,涉及 领域 也 愈加 广 
泛 。 目 前 ,国内 外 有 关 知 识 结构 发 现 的 研究 方法 大 致 
分 为 以 下 三 类 :基于 多 元 统计 分 析 的 方法 ;基于 社会 网 
络 分 析 的 方法 和 基于 主题 模型 的 方法 。 

基于 多 元 统计 分 析 (Multivariate Statistical Analy- 
sis,MSA) 的 知识 结构 发 现 方法 主要 对 研究 领域 进行 分 
类 或 预测 其 发 展 趋势 ,已 被 成 功 地 应 用 于 供应 链 ” 、 知 
识 管理 中 等 领域 。 用 于 知识 结构 发 现 的 MSA 方法 从 
经 典 统计 学 理论 发 展 而 来 , 常 通过 多 维 标 度 法 (Multi- 
dimensional Scaling, MDS) 绘制 二 维 知识 地 图 ,再 借助 
聚 类 分 析 ( Cluster Analysis ,CA ) 或 因子 分 析 (Factor A- 
nalysis,FA) 的 结果 确定 知识 点 的 数目 和 边界 5 。 其 
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中 ,MDS 可 以 通过 非 线性 变换 将 知识 点 映射 到 低 维 空 
间 ,CA 可 以 用 谱系 图 的 方式 展示 知识 间 的 关系 ,而 FA 
主要 是 用 较 少 的 因子 替代 所 有 变量 从 而 简化 分 析 过 
程 。 大 多 数 研究 都 是 将 三 种 方法 进行 综合 利用 来 发 所 
领域 知识 结构 。 

基于 社会 网 络 分 析 (Social Network Analysis,SNA) 
的 知识 结构 发 现 方法 起 初 以 文献 计量 学 为 基础 ,利用 
文献 外 部 特征 ,如 作者 ,引文 .机 构 等 分 析 科学 领域 的 
合作 关系 “和 引用 关系 上 ,研究 成 果 十 分 丰富 。 随 
着 研究 的 深入 ,从 文献 内 部 特征 如 摘要 、 关 键 词 等 人 
手 , 利 用 SNA 方法 发 现 科 学 文献 知识 结构 的 研究 也 逐 
步 展 开 , 已 应 用 在 西方 经 济 地 理学 ” ,图 书馆 学 与 情报 
学 等 领域 。 国 外 学 者 还 将 MSA 和 SNA 的 方法 结合 
起 米 , 互 为 补充 ,进行 知识 结构 发 现 工作 "”。 
全 上 述 两 类 方法 的 共同 点 在 于 通过 构建 关键 词 共 现 
答 隆 进行 聚 类 ,以 二 维 地 图 或 网 络 图 的 形式 对 知识 点 
进 律 可视化 展示 ,发 掘 核心 研究 群体 ,追踪 领域 发 展 脉 
给 机 重 于 学 科 前 沿 ,热点 的 研究 。 此 外 ,MSA 方法 对 
知 调 的 整体 属性 和 节点 间 的 联系 不 敏感 ,容易 忽视 特 
天 8 点 和 小 知识 群 。 而 SNA 方法 易 受 软件 固有 功能 
9 影响 ,数据 转换 时 可 能 丢失 有 用 的 信息 ,数据 规模 有 
-SB 限制, 且 整 个 过 程 中 人 为 干预 较 多 。 这 两 种 方法 
竺 到 的 知识 结构 均 难以 反映 知识 间 更 深层 次 的 语义 关 
5 主题 模型 的 出 现 可 以 很 好 的 解决 上 述 问题 。 
>< 基 于 主题 模型 的 知识 结构 发 现 方法 主要 采用 LDA 
(xent Dirichlet Allocation ) 模型 或 LDA 的 改进 模 
型 过 此 类 方法 一 般 利用 科学 文献 标题 ,摘要 等 构建 语 
料 原 ,通过 主题 模型 抽取 潜在 的 知识 主题 及 表征 其 
容 的 特征 词 。2016 年 王 日 芬 等 从 学 科 分 类 的 角度 出 
发 ,采用 LDA 主题 模型 深入 挖掘 国内 知识 流 领域 的 知 


专利 分 析 " 上 都 有 应 用 。 不 过 此 方法 得 到 的 层次 主 
题 结 构 依 然 存 在 一 些 问题 ,如 较 多 的 主题 重 琶 现象 文 
档 在 叶子 节点 中 的 分 布 较为 稀 玖 、 层 次 结构 和 主题 区 
分 度 不 好 控制 等 。 

因此 ,为 了 更 好 的 进行 层次 化 科学 知识 结构 发 现 
工作 ,改变 MSA SNA 等 传统 知识 结构 发 现 方法 仅 挖 
掘 科学 领域 的 表层 知识 热点 ,难以 反映 知识 间 层 次 继 
承 关系 的 情况 ,针对 HLDA 方法 的 不 足 之 处 ,本 文 重点 
关注 层次 化 科学 知识 结构 发 现 中 的 两 大 问题 ,一 是 如 
何 确定 知识 结构 的 层 数 ,以 保证 层次 粒度 的 合理 划分 ， 
二 是 如 何 确定 文献 子 集 的 范围 ,使 抽取 的 知识 主题 更 
准确 。 本 文 在 设计 模型 时 ,一 方面 ,利用 知识 主题 间 的 
相似 性 ,为 确定 知识 结构 层 数 提供 合理 依据 , 男 一 方 
面 ,从 生成 知识 主题 的 初始 文献 集 入 手 ,平衡 文档 范围 
和 文献 质量 的 关系 ,最 大 程度 提升 主题 质量 ,优化 知识 
结构 发 现 过 程 ,并 与 HLDA 这 一 经 典 的 层次 主题 模型 
进行 对 比 ,比较 各 目的 优 劣 ,为 知识 结构 发 现 的 相关 人 研 
究 方法 提供 参考 。 


3 ”层次 化 知识 结构 构建 


3.1 研究 框架 

本 文 基于 LDA 主题 模型 进行 层次 化 知识 结构 发 
,其 研究 框架 如 图 1 所 示 , 自 上 而 下 分 为 数据 层 、 逻 
辑 层 和 展示 层 三 部 分 :数据 层 是 文献 收集 与 预 处 理 过 
程 ,主要 对 文献 语 料 进行 初步 处 理 , 包 括 对 收集 到 的 文 


洁 


献 集 进行 合并 整理 ,以 及 分 词 .去 除 停 用 词 等 文献 预 处 
理 的 一 般 流 程 ;逻辑 层 是 对 层次 化 科学 知识 结构 的 发 
现 过 程 , 利 用 LDA 模型 对 预 处 理 好 的 语 料 进 行 挖掘 ， 
并 通过 计算 主题 间 平 均 相 似 性 帮助 确定 知识 结构 层 
数 ,通过 自动 筛选 阔 值 帮助 确定 下 层 主题 的 文献 子 集 


识 结构 ,同年 , CChang 利用 LDA 主题 模型 控 
掘 信息 安全 领域 的 知识 结构 ” 。 由 于 通过 LDA 模型 
得 到 的 知识 主题 是 由 一 系列 特征 词组 成 的 ,这 种 描述 
方式 可 以 反映 主题 的 语义 信息 ,每 篇 文档 属于 各 主题 
的 分 布 情况 也 可 以 通过 概率 直观 的 展示 出 来 ,有 效 避 
免 了 MSA 和 SNA 方 法 仅 通过 共 现 词 对 刻画 知识 主题 
的 单一 性 ,也 更 适用 于 大 规模 知识 主题 的 抽取 工作 ,但 
上 述 方法 大 多 直接 利用 LDA 经 典 模 型 进行 主题 抽取 ， 
其 结果 依然 是 表层 的 知识 热点 ,没有 对 知识 结构 层次 
化 的 完整 表示 ,忽略 了 知识 间 的 层次 继承 关系 。 针 对 
上 述 问题 ,有 学 者 开始 利用 LDA 的 拓展 模型 层次 主题 
模型 HLDA( Hierarchical Latent Dirichlet Allocation ) 051 
进行 知识 组 织 的 研究 工作 ,在 图 书 内 部 主题 组 织 “ 和 


范围 ;展示 层 主 要 根据 逻辑 层 得 到 的 特征 词 对 知识 主 
题 进行 映射 ,绘制 科学 知识 结构 树 形 图 ,便于 学 者 快速 
了 解 领域 知识 及 其 分 布 情况 。 
3.2 文献 收集 与 预 处 理 

文献 收集 首先 要 确定 检索 式 ,然后 在 专业 的 数据 
库 中 检索 文献 并 导出 所 需 记录 ,最 后 对 文献 数据 进行 
合并 汇总 ,删除 题 录 信 息 ( 包 括 标题 \ 摘 要 等 ) 不 完整 
的 文献 。 对 于 主题 抽取 工作 ,原始 数据 的 质量 是 很 重 
要 的 ,收集 到 的 文献 数据 是 非 结构 化 的 ,在 抽取 主题 之 
前 要 统一 进行 预 处 理 , 包 括 分 词 ,去 除 停 用 词 和 词 形 还 
原 , 从 而 生成 构建 层次 化 科学 知识 结构 所 需 的 建 模 文 
件 。 建 模 文件 的 第 一 行 是 语料库 中 的 文档 总 数 ,每 个 
文档 占据 一 行 。 由 于 本 文采 用 中 英两 种 文献 集 进 行 分 
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多 
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圳 
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析 - 许 预 处 理 操作 时 略 有 不 同 ,如 英文 不 需要 分 词 ,中 
需要 词 形 还 原 。 
3 人 的 层次 化 科学 知识 结构 发 现 方法 

他 尾 层 是 层次 化 科学 知识 结构 发 现 方法 的 核心 部 
证 温 体 实现 流程 如 下 : 

二 Stepl :将 预 处 理 好 的 建 模 文件 输入 LDA 模型 , 设 
写 辑 A 模型 参数 (参见 4. 2. 1 节 ) 和 主题 间 平 均 相似 
性 堵 小 值 ; 

.Sstep2 : 设 定 第 i 层 主题 数 ,运行 LDA 程序 输出 “ 文 
档 己 主题 "概率 分 布 和 “主题 - 词 ”概率 分 布 等 文件 ， 
由 网 得 到 第 1 层 知识 主题 

Step3: 计 算 主 题 间 平均 相似 性 ,判断 该 值 与 之 前 
设 定 的 主题 间 平均 相似 性 最 小 值 的 大 小 ,从 而 确定 知 
识 结构 层 数 , 若 判 断 结果 为 小 于 ,执行 Step4 ,否则 转向 
Step6 ,其 算法 描述 见 3.3.1 节 ; 

Step4 :继续 层次 化 过 程 ,为 下 层 主题 重新 截取 文 
献 子 集 , 其 算法 描述 见 3.3.2 节 ; 

Step5 : 令 1=i+l, 转 向 Step2 ,生成 下 层 知 识 主 题 ; 

Step6: 此 时 已 满足 层次 终止 条 件 ,为 了 保证 主题 
间 良 好 的 区 分 性 ,不 再 挖 气 下 层 主题 ,至 此 对 全 部 潜在 
知识 主题 进行 映射 ,绘制 层次 化 的 科学 知识 结构 图 。 
3.3.1 确定 知识 结构 层次 ” 随 着 知识 结构 层次 化 的 
加 深 ,知识 粒度 逐渐 细 化 ,同一 主题 下 的 知识 点 越 来 越 
相似 ,此 时 继续 进行 下 一 层 主题 的 抽取 便 没 有 意义 ,所 
以 本 文 设计 了 一 个 确定 知识 结构 层次 的 算法 ,这 里 , 需 
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山中 


和 先 设 定 一 个 主题 间 平 均 相 似 性 最 小 值 5。( 根据 经 验 
设 定 在 0 到 1 之 间 即 可 )。 

该 算法 基于 比较 成 熟 的 向 量 空 间 模 型 ,其 实质 是 
将 主题 下 的 特征 词 映 射 到 向 量 空间 ,获得 各 主题 的 特 
征 向 量 ,具体 实现 方法 如 下 :对 于 第 i 层 主 题 7 和 7， 
(1<k<j,1<r<j,kzr) 其 中 k 和 1 为 主题 编号 ,j 代 
表 主 题 总 量 ,分 别 将 其 下 前 25 个 特征 词 不 重复 的 合并 
为 一 个 集合 , (将 主题 下 特征 词 按 分 布 概率 降序 排列 ， 
前 25 个 特征 词 可 以 较 好 的 表征 主题 , 故 本 文 各 主题 下 
特征 词 均 设 为 25 个 ,) 可 以 得 到 一 个 n 维 向 量 ,n 是 特 
征 词 总 数 ,每 个 主题 由 一 个 向 量 VLv ,v,,…,v | 表示， 
V, 是 该 主题 对 于 第 a 个 特征 词 的 分 布 频次 。 如 果 该 主 
题 不 包含 特征 词 a, 则 V, =0, 至 此 ,我 们 得 到 主题 的 特 
征 向 量 所 

计算 两 个 主题 特征 向 量 的 夹 角 余弦 得 到 主题 间 相 
似 性 '” ,最 后 遍历 该 层 所 有 主题 ,计算 主题 间 相 似 性 
的 均值 并 与 设 定 值 5, 进行 比较 ,从 而 确定 终止 层 。 整 
个 算法 的 伪 代 码 如 图 2 所 示 : 
输入 : 第 i 层 所 有 主题 下 的 特征 词 T;_word 
输出 : 终止 层 数 
1 class HierarchyDetermine 
2 ”method get (Vix,Vi) // 生 成 主题 五 .和 工 ,的 特征 向 量 
3 foralltopic[TaxTi] do /Ts ely Ta, Tl, 五 ET 

T=，W… 吕 …， vs] /将 主题 下 的 特征 词 映射 到 向 量 空间 

end for 


4 
5 
6 method similaritycomputation (Vix,Vi) 
7 forallV [Vix,Vi] do 


Ts Tay 3| 


VoV, 
8 Si = 一生 和// 守 算 主题 间 相似 性 5 
ww = 本 入 也 于是 间 相 似 性 Ss 
9 endfor 
10 method sum (Siyr) 
11 foral[Sixy Sbo Sixtly Six Si ] do 


kl j 
12 SL = 了 Ss+ > Si /计算 主题 及 与 该 层 其 他 各 主题 的 相似 性 之 和 Su 
Ls rk 


13 end for 
14 method avgsimilaritycomputation(S;;) 
15 forall[Si Sy Sie*** $1] do 


16 VS Sa…，Sie…。 3 为 每 个 主题 与 该 层 其 他 各 主题 的 相似 性 之 和 
17 山 2 Sa 计算 第 i 层 的 主题 间 平 均 相 似 性 4vs(S;} 
Avg (5. )= 阁 
18 end for 
19 method judge( Avg(S;), S60) /出 断 4vg(Si) 和 So 的 大 小 
20 for all hierarchy [1.………:j] do 
2 if Ave (S$)<S, 
22 do ThresholdDetermine /执行 3.32 中 的 算法 ， 确 定 下 层 文献 子 集 范围 
23 ii=1 /继续 层次 化 过 程 ， 运 行 LDA 程序 生成 下 层 知识 主题 
24 get (ViViD) 
25 similaritycomputation (VE.Vio) 
26 sum (Sua) 
27 avgsimilaritycomputation(S;) 
28 judge( Avg (Si). So) 
29 else besthierarchy=i” 广 即 为 知识 结构 终止 层 
30 endif 
31 end for 
图 2 确定 知识 结构 层次 伪 代 码 
3.3.2 确定 文献 子 集 范围 。 在 主题 模型 中 ,每 篇 文档 


都 以 一 定 的 概率 归属 于 各 个 主题 ,要 对 主题 进行 细 化 ， 
刻画 其 下 层 知识 结构 ,就 要 对 属于 该 主题 的 文献 再 次 
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进行 主题 抽取 ,此 时 文献 子 集 的 质量 会 对 下 层 主题 的 
抽取 效果 产生 很 大 影响 。 传 统 方法 一 般 根据 经 验 设 定 
一 个 数值 或 百分比 来 截取 文献 集 , 此 方法 带 有 很 大 的 
主观 性 , 若 选 择 排序 靠 前 的 大 概率 文档 ,下 层 主题 对 上 
层 主题 的 继承 性 较 好 ,但 可 能 会 丢失 小 概率 文档 产生 
的 重要 主题 , 若 将 文档 范围 扩大 , 则 会 造成 文献 集 质量 
下 降 ,程序 运 行 效率 降低 ,同时 下 上 层 知识 主题 很 相 
似 ,不 能 达到 细 化 的 目的 。 
因此 ,为 了 在 文档 范围 和 主题 质量 这 两 方面 找到 
一 个 平衡 点 ,通过 观察 “文档 - 主题 " 概率 矩阵 ,我 们 
发 现 ,如 果 可 以 找到 一 个 闭 值 和 ,使 之 满足 以 下 两 个 条 
件 :中 在 重复 分 配 率 较 小 的 情况 下 ,保证 所 有 文档 都 可 
以 被 分 配 到 相应 的 主题 下 ,不 会 因为 截取 阔 值 太 小 而 
造成 文档 于 失 ,加 被 分 配 到 各 主题 下 的 文档 都 对 该 主 
题 窒 较 高 的 归属 概率 ,不 会 因为 截取 阔 值 太 大 而 影响 
和 通 质 量 。 那 么 这 样 的 阔 值 就 是 我 们 要 找 的 平衡 点 。 
(OW 图 3 为 例 , 在 一 个 6x5 的 “文档 - 主题 "概率 分 
人 再 由 中 ,我 们 首先 第 选 出 每 一 行 的 最 大 值 ,分 别 是 
0@% .0.3889 .0.9198 .0.6868 .0.1328 和 0.4841 ,再 筛 
泛 六 六 个 值 当 中 的 最 小 值 0.1328 ,以 该 值 作为 截取 文 
和 (红色 标记 ) ,使 被 截取 的 文献 在 相应 主 
题 忆 的 分 布 概率 较 高 ,使 主题 质量 得 到 保证 ,满足 条 件 
自动 筛选 出 阔 值 和 后 ,我 们 为 每 个 主题 截取 概率 
大 全 等 于 的 文档 作为 该 主题 的 下 层 文献 子 集 。 截 取 
纺 胰 (绿色 标记 和 红色 标记 ) 为 Topic0 下 有 文档 3 和 
4;geopicl 下 有 文档 1. 2 和 6;Topic2 下 有 文档 4;Topic3 
下 在 文档 SiTopio4 下 有 文档 3。 这 样 在 不 丢失 任何 广 
档 的 前 提 下 ,6 篇 文档 以 较 低 的 重复 分 配 率 归属 于 各 
主题 下 ,满足 条 件 〇 。 


图 3 文档 - 主题 概率 分 布 矩 阵 ( 部 分 ) 
综 上 ,对 于 一 个 “文档 - 主题 "概率 分 布 矩 阵 , 我 


们 首先 筛选 出 每 一 行 的 最 大 值 ,再 筛选 出 这 些 值 中 的 
最 小 值 ,该 值 即 可 作为 下 层 主 题 文献 子 集 的 截取 国 值 。 
用 Pi 1;) 表 示 第 i 层 主题 中 文档 m 隶属 主题 k 的 概 
率 , 其 中 m 为 文献 编号 ,1 二 mw,w 为 文献 总 量 , 像 这 
样 通过 两 次 取 最 值得 到 阔 值 和 的 方法 可 用 符号 表示 


为 :A = A 人 (VwPor) 符号 A 代 表 " 取 小 "运算 , V 代 
表 “ 取 大 ”运算 )。 其 算法 的 伪 代 码 如 图 4 所 示 : 


输入 : “文档 一 主题 概率 矩阵 P 

输出 : 文献 子 集 

1 class ThresholdDetermine 

2 method rowmax /在 概率 矩阵 ? 中 自动 入 选 每 一 行 的 最 大 值 


forall row [1,2,.…, m,:., wl]do 


Lo 


4 入 =v 本 -zx /得 到 每 一 行 的 最 大 值 

5 end for 

6 method colmin /在 得 到 的 w 个 最 大 值 中 自动 筛选 一 个 最 小 值 
7 forall [ 1 1 pe 罗 ， pee > ] do 

8 4=Av。R ai /得 到 国人 向 

9 endfor 


10 methodjudge “// 尖 由 文档 概率 与 阅 值 > 的 大 小 
11 foralltopic (Tis Tix***, Tie***, Ty)do 


12 sort no, 五 ) 

3 while Po, rn,)>4 do 

14 addInNextAtticleSubsets 

15 /为 各 主题 献 职 慨 率 大 于 等 于 辣 值 的 所 有 文献 形成 该 主题 的 下 层 文献 子 集 
16 end while 

17 end for 


图 4 确定 文献 子 集 范围 伪 代 码 


3.4 生成 知识 结构 层次 树 

展示 层 主 要 通过 图 形 化 的 界面 向 用 户 呈 现 最 终 的 
层次 化 科学 知识 结构 ,利用 主题 下 的 特征 词 映 射 潜在 
知识 主题 ,通过 对 该 领域 较为 了 解 的 专家 总 结 出 符合 
实际 的 主题 代表 词 , 帮 助 学 者 更 好 地 理解 主题 语义 信 
息 ,根据 总 结 好 的 主题 词 逐 层 绘制 科学 知识 结构 ,对 科 
学 知识 结构 进行 层次 化 的 完整 表示 ,生成 知识 结构 层 
次 树 。 这 种 层次 结构 可 以 清楚 的 显示 知识 点 间 的 并 列 
关系 和 继承 关系 , 粗 粒度 与 细 粒 度 的 划分 ,更 有 利于 学 
者 对 科学 领域 知识 的 全 面 了 解 。 


“ 云 计算 ”( Cloud Computing ) 一 词 自 提出 以 来 受到 
了 学 界 . 业界 的 广泛 关注 ,也 是 近 几 年 国内 外 的 研究 热 
点 之 一 。 为 了 全 面 探究 该 领域 发 展 状况 ,帮助 研究 者 
了 解 该 领域 的 知识 结构 ,同时 对 本 文 提出 的 层次 化 科 
学 知识 结构 发 现 方法 (用 HSKSD 表示 , Hierarchical 
Scientific Knowledge Structure Discovering Method ) 进行 
验证 ,我们 选取 云 计算 领域 的 中 英文 文献 作为 实验 数 
据 来 源 ,挖掘 知 识 主题 ,绘制 层次 化 的 知识 结构 ,最 后 
分 析 实 验 结果 并 与 经 典 的 HLDA 方法 进行 比较 。 
4.1 数据 概况 与 预 处 理 
4.1.1 数据 概况 ”本文 按 表 1 所 示 进 行 检 索 ,过 滤 掉 

题 录 信 息 不 完整 的 文献 ,最 终 得 到 中 文 文献 记录 
6 115 条 ,英文 文献 记录 4 843 条 。 
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表 1 数据 获取 

数据 类 型 检索 时 间 范 围 数据 库 来 源 检索 表达 式 来 源 类 别 文献 类 型 ”检索 结果 

中 文 文献 2005.01.01 -2016.12.1 中国 知 网 CNKI SU =“ 云 计算 ” SCI 来 源 期 刊 .EI 来 源 期 刊 . 核 心 期 刊 6115 篇 
期 刊 和 CSSCI 


英文 文献 Web of Science 核心 合集 引 


文 数据 库 

如 图 5 所 示 ,2005 年 和 2006 年 的 中 英文 均 没 有 检 
索 到 任何 文献 ,说 明 “ 云 计算 ”的 发 展 正式 起 源 于 2007 
年 。 截 至 2016 年 ,该 领域 历经 近 十 年 的 发 展 ,其 发 文 趋 
势 保持 稳步 上 升 ,中 文 在 2013 年 ,英文 在 2015 年 的 发 文 
量 均 突破 1 000 篇 ,可 见 云 计算 领域 的 影响 力 正在 逐步 
扩大 , 且 外 文 研究 在 2016 年 后 有 赶 超 中 文 研究 的 趋势 。 
4.1.2 ”数据 预 处 理 ” 预 处 理 过 程 是 对 原始 文献 语 料 的 
加 工 , 生 成 建 模 所 需 的 数据 文件 。 针 对 不 同 数据 类 型 的 
文献 集 ,我 们 采用 不 同 的 预 处 理 方法 ,具体 操作 见 表 2。 


TS = “ cloud computing” 


SCI-EXPANDED 、SSCI、CPCI-S 和 Article 
CPCI-SSH 


4 843 篇 


发 文 量 


2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 
年 份 
一 中 文 发 文 量 ee 英文 发 文 量 


图 5 云 计算 领域 历年 发 文 趋势 图 


表 2 数据 预 处 理 


实验 设置 与 结果 分 析 


斯 坦 福 coreNLP 软件 包 [20] 需要 


预 处 理 方法 词性 还 原 去 除 停 用 词 处 理 内 容 
Hanlp 软件 包 [9] 不 需要 百度 和 哈工大 的 停 用 词 表 ,加 之 自 定义 词汇 标题 ,摘要 


Lucene 停 用 词 表 


标题 ,摘要 


程序 ,参照 3.3 节 层 次 化 科学 知识 结构 发 现 方法 进行 


实验 设置 ”由 于 LDA 的 相关 算法 已 经 比较 成 
部 5 半 此 不 做 过 多 说 明 , 其 参数 设 定 参考 文献 [21] 和 
实验 总 结 的 经 验 值 ,a 和 B 用 来 控制 主题 和 词语 的 分 
布 5 趾 体 说 明 如 表 3 所 示 : 

< 表 3 ”LDA 建 模 参数 说 明 


-a 文本 集 在 潜在 主题 上 的 狄 利克 雷 先 验 ,a =0.5 
有 潜在 主题 在 特征 词 集 上 的 狄 利克 雷 先 验 ,B = 0. 02 
T; 各 层 潜 在 主题 数 ,7T| =1,7 =10,73 =6 
niters Gibbs 抽样 迭代 次 数 ,niters = 1000 
twords 主题 下 特征 词 个 数 ,twords =25 


HLDA 建 模 步 又 及 参数 设 定 参考 文献 [22] ,同时 
为 了 方便 后 续 评 估 , 使 两 种 方法 生成 的 知识 结构 层次 
和 主题 数量 尽量 接近 ,经 过 多 次 试验 ,具体 参数 设 定 如 
表 4 所 示 : 


表 4 HLDA 建 模 参 数 说 明 
参数 说 明 
a ”文本 集 在 潜在 主题 上 的 狄 利克 雷 先 验 ,a =20 


gamma ”nCRP 参数 [23] ,决定 先 验 树 结构 的 形状 , 即 文档 每 一 层 的 路 径 
选择 ,gamma = 20 


ela 。 ” 狄 利 克 雷 分 布 超 参 , 即 每 一 层 的 主题 参数 ,etla =0.09 


对 于 云 计算 的 中 文英 文 文献 数据 集 ,完成 相关 题 
录 信 息 的 预 处 理 后 ,将 建 模 文件 输入 基于 Java 的 LDA 
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实验 。 为 得 到 结构 较 优 的 层次 化 知识 结构 ,经 多 次 试 
验 ,我 们 选取 表 5 中 的 阐 值 和 主题 间 平 均 相似 性 最 
小 值 5, 作为 比较 参数 。 

表 5 上 比较 参数 设 定 值 


比较 参数 截取 阔 值 ”主题 间 平 均 相似 性 最 小 值 $0 
中 文 0.19 0.25 
英文 0.17 0.27 


4.2.2 实验 结果 分 析 根据 主题 下 特征 词 的 分 布 情 
况 , 逐 层 映射 潜在 知识 主题 ,得 到 云 计算 领域 的 三 层 知 
识 结构 ,其 中 第 二 层 知 识 主 题 及 其 词语 概率 分 布 情况 
的 部 分 结果 展示 如 下 表 6、7 所 示 。 将 特征 词 按 概率 分 
布 降序 排列 ,可 以 看 到 ,同一 主题 下 的 特征 词 有 较 大 相 
关 性 ,它们 所 表达 的 语义 信息 也 较为 接近 ,这 对 于 潜在 
知识 主题 的 映射 有 很 大 帮助 。 我 们 分 别 绘制 HSKSD 
和 HLDA 方法 得 到 的 “ 云 计算 ”领域 中 英文 语 料 下 的 
知识 结构 层次 树 ,展示 如 图 6 -9 所 示 。 

对 HSKSD 方法 生成 的 知识 结构 进行 解读 ,中 英文 
的 首 层 知识 主题 均 为 “ 云 计 算 ”, 中 文 第 二 层 的 十 大 主 
题 包括 算法 优化 .教育 领域 .用户 服务 .数据 安全 .产业 
创新 ,存储 处 理 .技术 人 研究 .智能 检测 .信息 服务 和 平台 
架构 ,英文 第 二 层 的 十 大 主题 包括 Mobile network 、Al- 


gorithm scheduling 、Virtual machine Image system Cloud 
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表 6 ”中文 第 二 层 知识 主题 及 其 词语 概率 分 布 情况 (部 分 ) 


主题 主题 2 主题 3 主题 4 
算法 优化 教育 领域 用 户 服务 数据 安全 
资源 0. 04453305 教育 0. 03449461 服务 0. 08079356 安全 0. 04778969 
算法 0. 04347546 学 习 0. 03192548 模型 0. 03641950 方案 0. 02981086 
调度 0.03182569 云 计 算 0. 02388114 云 计算 0. 02492295 用 户 0. 02814273 
云 计算 0. 02655400 技术 0.01638433 有 户 0.02410365 数据 0. 02180998 
虚拟 机 0.01861393 教学 0.01566834 方法 0.01805144 云 计算 0. 02165552 
优化 0.01853258 中 国 0.00977197 际 境 0. 01662428 环境 0. 02125393 
负载 0.01671027 实践 0. 00926657 研究 0.01535570 存储 0.01856637 
策略 0.01558759 专业 0. 00762401 提出 0.01511784 加 密 0.01624951 
提出 0.01526218 环境 0. 00728707 信任 0.01334710 保护 0.01597149 


表 7 英文 第 二 层 知识 主题 及 其 词语 概率 分 布 情况 (部 分 ) 


_ 主题 1 主题 2 主题 3 主题 4 
Mobile network Algorithm scheduling Virtual machine Image system 


etwork0. 08469845 algorithm0. 03492635 virtual0. 04148223 system0. 03544545 
mobile 0. 05664680 cloud0. 03223510 performance0. 03571050 image0. 01819276 
wloud 0. 02924265 energy0. 02924316 machine0. 03258906 health0. 01805041 
computing0. 02512785 scheduling0. 02333444 cloud0. 02874124 cloud 0. 01651304 
vice 0.02471010 resource0.02183096 system 0. 065297 user 0.01449168 


computing0. 02109425 virtualization0. 01815974 video 0.01446321 

task 0.01871873 server 0.01798305 content 0. 01229951 
time 0.01715511 application 0.01778673 multimedia 0.01039204 
optimization 0. 01641840 resource 0.01733520 social 0.01033510 


ation service、 Datum security、 Computing method 、 涉及 到 教育 .金融 、 交 通 和 政务 等 各 个 方面 ,其 应 用 范 
UsSP resource service .Business management 和 Data anal- 围 愈加 广泛 。 我 们 知道 , 云 计算 实际 上 是 一 组 相关 技 
{查阅 资 料 ,我 们 发 现 , 这 些 知识 主题 与 云 计算 领 ” 术 和 服务 的 总 称 ,与 云 计算 领域 的 技术 和 服务 相 结 合 ， 
域 酌 专 业 图 书 ' 六 中 介绍 的 相关 概念 与 技术 不 谋 而 合 ， ”各 种 新 兴 技 术 如 物 联 网 技术 .图像 检索 技术 等 受到 学 
与 网 人 在 “ 云 计算 ”领域 的 相关 研究 结果 也 基本 一 。 ”者 的 广泛 关注 ,各 类 特色 服务 如 推荐 服务 ,智能 监测 服 
致 夺 ,证 明了 本 文 的 主题 抽取 结果 具有 一 定 的 科学 务 等 不 断 涌现 。 值 得 一 提 的 是 ,图 情 领 域 也 因此 发 生 
隆 和 合理 性 。 分 析 知 识 结构 中 的 第 三 层 ,可 以 发 现 , 除 了 一 些 变革 ,如 图 书馆 、 出 版 业 和 媒体 业 的 转型 ,涉及 
了 对 传统 技术 ,如 算法 存储 数据 安全 和 平台 架构 等 知识 共享 .知识 管理 以 及 文献 分 析 的 相关 研究 越 来 越 
的 持续 关注 外 , 近 些 年 来 ,中 英文 云 计算 领 域 的 研究 还 多 。 


云 计算 


户 
民 务 


安全 创新 检测 


| | | | 
| | | | | | Lh | | 
网 资 能 目 任 负 。 智 专 教 版 智 数 。 推 知 平成 信物 中 省 言 出 媒 电 年 并 查 图 资 ， 模 虑 智 文 计 图 “ 检 监 智 交通 移 。 信 电 知 智 集 服 ” 业 数 虚 企 移动 
国情 全 筑 。 怨 训 机 二 汪 由 水 司 份 和 呈 上 全 避让 让 由 休 于 全。 攻 从 二 加 2 区 书 济 测 和 和信 动 ” 居 子 训 世 务 ”基态 
节 分 分 仿 调 均 “” 系 会 平 保 校 中 。 服 管 设 优 评 供 | 网 化 社 业 商业 。 分 系 算 与 检 凋 “分 环 研 分 系 馆 “ 算 平 电信 技 终 ”化 政 共 城管 向 ”分 外 资 管 学 广 
点 配 配 真 度 衡 “” 统 议 台 护 园 心 分 和 证 化 全 才 证 护法 测 境 制 半生 人 We 法 合 网 晨 术 新 人 析 理 源 理 习 法 
设 ES 


| 数据 | 产业 智能 


] 优化 


加 过 


图 6 HSKSD 方法 一 一 中 文 层次 化 知识 结构 
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Energy optimization 
Security scheme 
Traffic dat um 
Visualization technology 
Mobile devices 
-一 Smart sensors 
Access protocol 
Workflow scheduling 
Performance optimization 
Cost allocation 
Node distribution 
-一 Power efficiency 
_ Prediction analysis 
Migration algorithm 
Distribute storage 
Parallel execution 
Machine architecture 
-一 Infrastmcture management 
Sensor monitoring 
| Riskrecognition 
Healthcare system 
Multimedia content 
Mobile social applications 
L_ Digital technology 
— Application software service 
Data processing 
System management 
Business platform 
Simulation performance 
Safe management 
[一 Privacy protection 
点 ccess control 
Verification and Auditing 
Computation encryption 
Attack detection 
Authentication 
Detection and analysis 
Time algorithm 
Parallel computing 
Efficient query 
Clustering al gorithm 
File storage 
r 一 Resource allocation 
Trust mechanism 
Software technology management 
Framework quality management 
__ Resource cost 
Storage resources 
Collaborative leaming 
Health data analysis 
Trust risk 
Smart management 
| Manufacturing performance 
Enterprise innovation 


Molecular reconstruction 
simulation computation 
Geospatial data analysis 
Climate modeling 
Gene sequence analysis 

— Scientific modeling tool 


7 HSKSD 方法 一 一 英文 层次 化 知识 结构 


对 于 HLDA 方 法 生成 的 知识 结构 进行 解读 ,中 英 
文 的 首 层 知 识 主 题 依然 为 “ 云 计 算 ”, 中 文 第 二 层 知 识 
主题 包括 物 联网 .虚拟 机 、 服 务 吉 数据 库 资源 共享 、 
基础 设施 教育 领域 .移动 通信 ,空间 信息 、 数 据 源 、 服 
务 外 包 共 十 一 个 主题 。 英 文 第 二 层 知 识 主 题 包括 sys- 
tem datum .mobile datum .computing performance distrib- 
uted database .network system distribution strategy .detec- 
tion analysis time device 共 八 个 主题 。 涉 及 云 计算 在 教 
育 .通信 等 领域 的 应 用 。 另 外 ,分 析 其 生成 的 第 三 层 知 
识 主 题 ,“ 城 市 规划 ”和 “遗传 信息 ”展示 了 云 计算 技术 
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王 


在 智慧 城市 和 生物 医药 领域 的 贡献 ,但 总 体 而 言 ,其 主 
题 间 的 从 属 关 系 较为 混乱 ,如 “虚拟 机 ”下 的 “知识 产 
权 ”， 移 动 通信 "下 的 “遗传 信息 ” ,英文 也 存在 同样 的 


问题 ,如 “computing performance” 下 的 “business innova- 


tion” 和 ”privacy protection” 。 

对 上 述 结果 从 以 下 两 方面 进行 定性 分 析 : 

(1) 单 层 主 题 区 分 度 。 以 中 文 第 二 层 知识 主题 为 
例 ,对 比 两 种 方法 生成 的 知识 主题 可 以 发 现 , HSKSD 
方法 得 到 的 知识 主题 分 类 更 加 清晰 ,知识 间 区 分 度 强 ， 
对 应 的 特征 词 有 较 准 确 的 表征 ,基本 涵盖 了 云 计算 领 
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物 联 虚拟 服务 数据 源 基础 教育 || 移动 || 空间 || 数据 | | 服务 
网 机 器 库 享 设施 领域 通信 信息 源 外 包 
| | | 
| jl | | | | | | | | [| 
新 电 档 神 知 流 数 数 数 网 制 外 无 任 信 财 : 出 情 移 新 煤 远 控 : 资 操 金 遗 服 城 调 1 
暴 维 新 昌 荣 又 当代 各 执 所 络 各 要 得 信和 曼 : 版 报 双 能 次 各 全 : 。 源 想 人 状 改 芝 相 明 
系 露 体 商 管 网 产 应 安 中 库 攻 业 网 测度 入 ” 业 又 服 源 企 数 器 。 本 系 业 信 和 供 规 中 
统 ” 务 理 络 权 链 全 心 系 击 。 络 度 息 统 务 市 业 言 恒 统 息 应 划 ib 务 
田 ” 统 场 商 
图 8 HLDA 方法 -中 文 层 次 化 知识 结构 
用 均衡 六 个 方面 。HLDA 方法 在 第 二 层 “ 物 联网 "对 应 的 
en llaborative learni ey ge i 
datum simulating calculation 第 三 层 知 识 主 题 包括 档案 管理 .电子 商务 、 多 媒体 、 处 
Le ee On 
i ee se 理 器 .导航 系统 五 个 方面 。 对 比 发 现 ， 算 法 优化 "下 
t 二 到 、 he = [3 > 
datum ource sche: 的 六 个 主题 有 较 强 的 相关 性 和 继承 性 ,是 隶属 于 “算法 
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— Privacy Protection 
application resource 
mood detection 
business innovation 
- network center 
workflow analysis 
forensic trust 
service business 


[Healthcare 


distributed 
database 


network digital library 
CN system broadcast channel 
© lw facial gene 
distribution [ ot 
NN ss | composition algorithm 
[1 | 


本 [一 security threat 
人 coalition utility 
analysis [image segmentation 
| theory instruction 
-ee | 


Virtual machine 
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overdose 
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域 的 方方面面 ,全 面 且 细 致 的 将 云 计算 领域 分 为 十 大 
研究 方向 ,而 HLDA 方法 得 到 的 知识 主题 比较 分 散 , 且 
有 重复 交叉 的 地 方 , 比 如 :虚拟 机 和 服务 器 、 数 据 库 和 
数据 源 , 且 相 对 重要 的 数据 安全 、 存 储 处 理 和 算法 方面 
均 没 有 在 知识 结构 中 体现 出 来 。 以 英文 第 二 层 知识 结 
构 为 例 , HSKSD 方法 同样 得 到 了 结构 关系 良好 ,主题 
区 分 度 明显 的 十 大 知识 主题 , 相 比 之 下 ,HLDA 方法 得 
到 的 知识 主题 则 不 尽 人 意 。 

(2) 层 间 主 题 继 承 性 。 层 次 知识 结构 发 现 与 传统 
知识 结构 发 现 的 主要 区 别 就 在 于 它 是 层次 化 的 ,通过 
对 不 同 层 的 主题 进行 对 比 ,观察 各 层 间 是 否 有 较 好 的 
继承 性 ,层次 是 否 清晰 。 以 中 文 为 例 , HSKSD 方法 在 
第 二 层 “ 算 法 优化 ”对 应 的 第 三 层 知 识 主题 包括 网 络 
节点 、 资 源 分 配 、 能 耗 分 析 、 目 标 仿真 ,任务 调度 和 负载 


优化 ”的 更 细 粒 度 的 知识 主题 ,而 HLDA 方法 得 到 的 
“ 物 联网 ”的 下 层 主题 继承 关系 并 不 明显 ,知识 点 较为 
分 散 。 以 英文 为 例 , HLDA 方法 得 到 的 层次 主题 同样 
存在 继承 关系 不 强 .甚至 混乱 的 问题 。 
4.3 评价 指标 

本 文 的 知识 结构 发 现 方法 是 一 种 无 监督 学 习 的 方 
法 ， 云 计算 "领域 的 某 些 类 标签 或 其 它 基准 不 适合 作 
为 参考 ,也 不 宜 使 用 准确 率 、 召 回 率 、 精 度 等 传统 的 评 
价 指 标 验证 本 文 方法 的 有 效 性 。 因 此 ,受到 相关 文献 
的 启发 ,结合 实验 过 程 中 的 有 益 发 现 , 本 文 综合 采用 以 
下 4 个 评价 指标 评估 HSKSD 与 HLDA 方法 的 优 劣 : 文 
档 利 用 率 U( Utilization ) ,文档 隶属 度 M( Membership ) 、 
主题 间 独 立 性 I(Independence) ” 和 时 间 复 杂 度 TC 
(Time Complexity) “| ,并 对 前 文 未 提 及 的 符号 做 如 下 
说 明 :Q) D; 代表 第 i 层 的 文档 数量 ,i 代表 层 数 ,is NN 
+ ;@ D_7T, 代 表 第 i 层 主题 k 下 的 文档 数量 ;G@) word_ 
count 为 预 处 理 后 词 表 中 词 的 个 数 , 即 不 重复 词 的 个 


数 。 
各 指标 计算 公式 如 下 : 
i 
v= jx100% 公式 (1) 
w 
wj 
i Pop,.ry 、 
M. =Avg( SP mu) =SEas 公式 (2) 
m=1k=1 wx] 

让 
二 公式 (3) 
j(j-1) 

TC = > 的 (niters x T, x word_count., ) 公式 (4) 
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4.3.1 文档 利用 率 ” 在 实验 中 ,是 否 所 有 的 文档 都 被 
分 配 到 层次 结构 中 是 首先 要 衡量 的 一 个 指标 ,文档 利 
用 率 V>=> 100% 是 合理 的 范围 ,在 这 种 情况 下 ,形成 的 
层次 结构 是 全 面 的 完整 的 ,生成 的 主题 才能 覆盖 所 有 
的 文档 。 

对 于 中 文 ,HSKSD 方法 的 第 二 层 由 全 部 的 6 115 
篇 文献 生成 10 个 不 同 的 主题 ,将 每 个 主题 下 的 文献 相 
加 是 10 374 篇 ,大 于 总 数 6 115 篇 ,这 是 因为 一 篇 文档 
可 以 属于 不 同 的 主题 ,只 要 其 概率 大 于 截取 阐 值 ,就 
会 被 分 配 到 相应 的 主题 下 组 成 文献 子 集 ,英文 同 理 。 
HLDA 方法 中 ,每 一 篇 文档 按 路 径 寻 找 主题 ,路 径 唯 


一 ,其 最 终 属 于 的 主题 也 唯一 ,其 实质 是 将 所 有 文档 按 
路 径 分 配 到 不 同 的 主题 下 ,所 以 文献 总 和 与 文献 集 数 
一 致 。 

第 二 层 各 主题 下 的 文档 分 布 情况 如 下 表 8 .9 所 
示 ,根据 公 式 (1)(i 取 2) 可 分 别 得 到 不 同 语 料 下 的 文 
档 利 用 率 U。 回 顾 表 7 比较 参数 设 定 中 的 阔 值 A ,可 以 
看 出 阀 值 大 小 与 文档 利用 率 成 反比 , 即 阔 值 越 大 ,文档 
利用 率 越 接近 100% ,可 以 理解 为 , 较 高 的 阔 值 会 让 主 
题 下 被 选中 的 文章 数 变 少 ,从 而 降低 文档 被 重复 分 配 
的 比例 。 


是 


表 8 中 文 第 二 层 主 题 下 文档 数 


文档 数 D_Ty Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic 10 Topic 11 总 计 ”文档 利用 率 U， 
=HSKSD 1 188 627 880 675 1 296 1 037 1 211 758 1 391 1 311 四 10 374 170% 
HLDA 560 669 399 1 252 224 1 955 107 712 108 85 44 6 115 100% 

< 十 表 9 英文 第 二 层 主题 下 文档 数 


档 数 六 72 Topicl Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic 10 总 计 文档 利用 率 U， 
© HSKsp 913 1 157 942 615 1 512 819 952 1076 1 073 524 9 583 198% 
< HIDA 244 2 800 540 623 292 2 169 147 = a 4 843 100% 

1 文档 素 属 度 ” 一 个 主题 下 的 所 有 文档 及 文档 。” 主题 间 独 立 性 。 

车 居 该 主题 的 概率 值 Po 构成 “文档 - 主题 "矩阵 ， | 
相 限 公式 (2) (i 取 2) 计 算 第 二 层 主题 下 文献 子 集 的 平 。 加 加 7 
均 恋 属 度 M, 若 M 值 较 高 ,说 明 该 主题 下 的 文章 具有 04 urAD 
绞 训 的 来 必 度 , 聚 类 效果 好 。 0 sr 人 


(5 从 图 10 中 可 以 看 出 ,不 同 语 料 下 HSKSD 方法 的 
M 著 均 高 于 HLDA 方法 ,说 明 我 们 的 方法 形成 的 主题 
对 安 档 有 更 好 的 聚 类 效果 。 

人 


看 HSKSD 
国 HLDA 


中 文 
图 10 文档 隶属 度 比较 


4.3.3 主题 间 独 立 性 ”比较 主题 间 独 立 性 ,实质 是 比 
较 主题 下 的 特征 词 之 间 是 否 存 在 差异 。 本 文 利用 每 个 
主题 下 的 特征 词根 据 公 式 (3) (i 取 3) 计 算 第 三 层 知识 
结构 的 主题 间 独 立 性 I, 如 果 I 值 较 高 ,说 明 主 题 间 差 
异 大 ,耦合 度 低 , 好 的 聚 类 效果 也 会 提升 主题 表达 性 能 
和 模型 推广 能 

计算 过 程 中 ,我 们 发 现 同一 个 主题 的 下 层 主 题 间 
相似 性 高 ,不 同 主题 的 下 层 主 题 间 相似 性 低 , 符 合 一 般 
聚 类 结果 的 类 内 高 相似 性 和 类 间 低 相似 性 的 目标 ,与 
实际 情况 一 致 。 图 11 展示 了 不 同 语 料 下 两 种 方法 的 


英文 


100 


图 11 主题 间 独 立 性 比较 


从 上 图 可 以 看 出 ,HLDA 方法 生成 的 主题 间 独 立 
性 较 强 ,分 析 原 因 是 HLDA 在 选择 特征 词 的 时 候 倾向 
于 选择 特殊 的 ,出 现 次 数 少 的 ,更 具 差 异性 的 词语 ,而 
HSKSD 方法 则 是 选择 文档 中 出 现 频率 较 高 的 .具有 广 
泛 代 表 性 的 词 作 为 特征 词 ,因此 有 不 少 特 征 词 是 一 臻 
的 ,这 可 能 是 造成 主题 间 独 立 性 较 低 的 原因 。 
4.3.4 时 间 复 杂 度 ”算法 的 时 间 复 杂 度 是 反映 算法 
优 劣 的 重要 指标 ,时 间 复 杂 度 TC 常用 符号 0 表示 , 算 
法 的 时 间 复 杂 度 越 低 , 其 效率 越 高 。 在 实验 环境 为 
MyEclipse 2015 , JDK1. 8.0,6GB 内 存 , Windows 7 操作 
系统 的 配置 下 ,我 们 对 算法 的 时 间 复 杂 度 进行 评估 , 见 
图 12。 

每 一 层 的 复杂 度 为 :TC; = 0,(niters xT xD x1,)， 


word_count, _、 
= 一 一 二 一 一 ,对 该 


其 中 工 为 各 层 文档 平均 长 度 , 即 = 
化 简 , 即 得 到 公式 (4) (i 取 1,2,3) ,图 12 为 


公式 进行 
根据 公式 (4) 得 到 的 时 间 复 杂 度 计算 结果 ,其 中 迭代 
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图 12 不 同 语 料 下 的 时 间 复 杂 度 比较 


观察 上 图 ,可 以 看 到 中 文 语 料 下 ,HLDA 方法 的 时 
间 复杂 度 大 约 是 HSKSD 的 3 倍 ,而 英文 语 料 下 则 接近 
4 倍 ,上 且 HLDA 方法 有 随 层 数 加 深 ,时 间 复 杂 度 迅速 弟 
增 的 现象 ,所 以 在 时 间 复 杂 度 方面 ,HSKSD 方法 明显 
优 于 HLDA 方法 。 
4 可 -5 综合 比较 ”对 前 述 比较 标准 进行 综合 评判 ,本 
出 的 HSKSD 方法 在 文档 利用 率 方面 与 HLDA 方 
是 属 度 和 时 间 复 杂 度 上 则 优 于 


方法 ,HLDA 方法 仅 在 主题 间 独立 性 上 优 于 HS- 
KSD) 方 法 ,以 上 是 从 定量 角度 进行 的 比较 。 

OO 此 外 ,回顾 4.2. 2 节 中 对 知识 结构 直观 的 定性 分 
峰 济 层次 上 , HSKSD 方法 较 HLDA 方法 发 现 的 知识 
所 是 更 加 全 面 , 少 有 交 又 ,主题 间 区 分 度 较 高 。 多 层次 
isrksn 方法 较 HLDA 方法 层次 间 继承 性 强 ,下 层 
知 设 是 上 层 知识 的 细 粒 度 刻画 ,也 可 以 解释 为 关联 度 
开 吉 局 性 好 。 

CO 通过 以 上 分 析 , 对 本 文 提出 的 HSKSD 方法 和 HI- 
DA 法 在 4 个 定量 指标 和 2 个 定性 指标 下 进行 综合 
评 淹 ,结果 如 表 10 所 示 。 

© 表 10 不 同方 法 的 综合 性 能 比较 

文档 文档 主题 间 


时 间 ” 单 层 主题 层 间 主题 


利用 率 ”归属 度 ”独立 性 ”复杂 度 ”区 分 度 ”继承 性 
HSKSD V V V V 
HLDA 人 V 
$5 结论 


本 文 提 出 了 一 种 层次 化 的 科学 知识 结构 发 现 方 
法 。 在 处 理 好 的 中 英文 语 料 下 ,首先 利用 LDA 模型 抽 
取 “ 云 计算 ”领域 首 层 知 识 主题 ,然后 设计 了 基于 主题 
间 平 均 相 似 性 确定 知识 结构 层次 的 算法 和 在 “文档 - 
主题 "概率 和 矩阵 中 自动 筛选 浆 值 确定 下 层 文献 子 集 范 
围 的 算法 ,结合 这 两 大 算法 ,可 以 帮助 我 们 得 到 合理 的 
知识 结构 层 数 和 高 质量 的 知识 主题 ,然后 对 所 有 潜在 
知识 主题 进行 映射 ,绘制 最 终 的 “ 云 计算 ”领域 知识 结 
构 层 次 树 。 通 过 对 “ 云 计算 ”领域 层次 树 图 的 分 析 和 


解读 ,结合 定量 、 定 性 指标 ,证 明了 我 们 的 方法 在 文档 
归属 度 .时 间 复 杂 度 . 单 层 主题 区 分 度 和 层 间 主 题 继 承 
性 方面 较 HLDA 方法 均 有 较 大 提升 ,也 验证 了 本 文 方 
法 的 科学 性 和 有 效 性 。 
抽取 科学 领域 的 知识 主题 并 对 其 进行 有 效 组 织 ， 
对 科研 工作 者 和 广大 学 者 快速 理解 并 掌握 领域 知识 结 
构 具 有 重要 意义 , 现 有 知识 结构 发 现 方 法 涉及 知识 层 
次 关系 的 不 多 ,已 有 的 层次 化 方法 也 存在 知识 结构 难 
以 控制 ,主题 质量 不 佳 等 问题 ,本 文 提出 的 层次 化 科学 
知识 结构 发 现 方法 ,不 但 深入 主题 语义 内 部 ,给 出 了 知 
识 结 构 层 次 化 的 完整 表示 ,还 大 大 优化 了 知识 结构 发 
现 过 程 ,提高 了 知识 主题 质量 ,其 知识 结构 构建 速度 更 
快 ,知识 主题 表征 效果 更 好 ,这 些 优 化 具有 一 定 的 通用 
性 ,对 其 他 领域 科学 知识 结构 的 发 现 有 一 定 借鉴 价值 。 
当然 ,本 文 的 方法 也 存在 一 些 不 足 ,如 较 短 的 特征 词 使 
主题 的 可 解释 性 不 强 , 人 工 总 结 的 主题 代表 词 带 有 一 
定 的 主观 性 ,衡量 主题 间 相 似 性 的 方法 有 待 提 升 等 ,未 
来 笔者 将 在 这 些 问题 上 进行 探索 和 改进 。 
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A Hierarchical Discovery Method of Scientific Knowledge Structure 
Li Hu Tian Yadan 
School of Economic & Management, Xidian University, Xi’ an 710126 


-Abstract. [Purpose/significance | This paper proposes a new hierarchical discovery method of scientific knowledge 


struéture, which provides reference for optimizing knowledge structure discovery process and improving knowledge organi- 
zad 中 form. [Method/process | Firstly, this paper constructed a hierarchical discovery method of scientific knowledge 
structure by using LDA topic model. Then, according to the average similarity degree among topics, it automatically deter- 
mined the hierarchy of knowledge structure, and the literature subsets were intersected by filtering threshold automatically 
in the “ document -topic” probability matrix. Finally, it adopted tree diagram to display the science knowledge structure 
and explore the correlation and inheritance of knowledge points. Besides, we also compared our method with HLDA meth- 
od which is a hierarchical topic model. [ Result/conclusion | The result shows that the knowledge structure obtained by 
our method is better, the representation of knowledge topic is stronger and it has the higher operation efficiency. In addi- 
tion, compared with the HLDA method, our method has a great improvement on the topic differences of the single layer 
and the topic inheritance between layers. 
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